We present a novel method to provide efficient and highly detailed reconstructions. Inspired by wavelets, our main idea is to learn a neural field that decompose the signal both spatially and frequency-wise. We follow the recent grid-based paradigm for spatial decomposition, but unlike existing work, encourage specific frequencies to be stored in each grid via Fourier features encodings. We then apply a multi-layer perceptron with sine activations, taking these Fourier encoded features in at appropriate layers so that higher-frequency components are accumulated on top of lower-frequency components sequentially, which we sum up to form the final output. We demonstrate that our method outperforms the state of the art regarding model compactness and efficiency on multiple tasks: 2D image fitting, 3D shape reconstruction, and neural radiance fields.
translated by 谷歌翻译
神经场通过将坐标输入映射到采样值来模型信号。从视觉,图形到生物学和天文学的许多领域,它们正成为越来越重要的主链体系结构。在本文中,我们探讨了这些网络中常见的调理机制之间的差异,这是将神经场从信号的记忆转移到概括的基本要素,其中共同建模了位于歧管上的一组信号。特别是,我们对这些机制的缩放行为感兴趣,以对日益高维的调理变量感兴趣。正如我们在实验中显示的那样,高维条件是建模复杂数据分布的关键,因此,确定哪种体系结构在处理此类问题时最能实现哪种选择。为此,我们运行了使用串联,超网络和基于注意力的调理策略对2D,3D和4D信号进行建模的实验,这是文献中尚未进行的必要但费力的努力。我们发现,基于注意力的条件在各种环境中的其他方法都优于其他方法。
translated by 谷歌翻译
我们提出了一个新框架,用于仅使用音频信号来提取有关场景的视觉信息。基于音频的方法可以克服基于视觉的方法的某些局限失败。因此,即使对于只有视觉信息感兴趣的应用程序,我们的框架基于多种学习,并且由两个步骤组成,因此基于音频的方法也可以很有用。首先,我们训练一个矢量定量的变异自动编码器,以了解我们感兴趣的特定视觉模态的数据歧管。其次,我们训练音频转换网络以将多通道音频信号映射到相应的视觉效果的潜在表示样本。我们证明我们的方法能够使用公开可用的音频/视觉数据集从音频中产生有意义的图像。特别是,我们考虑了来自音频的以下视觉方式的预测:深度和语义分割。我们希望我们的工作发现可以促进从音频中进行视觉信息提取的进一步研究。代码可在以下网址获得:https://github.com/ubc-vision/audio_manifold。
translated by 谷歌翻译
我们介绍了一种方法,例如针对3D点云的提案生成。现有技术通常直接在单个进料前进的步骤中回归建议,从而导致估计不准确。我们表明,这是一个关键的瓶颈,并提出了一种基于迭代双边滤波的方法。遵循双边滤波的精神,我们考虑了每个点的深度嵌入以及它们在3D空间中的位置。我们通过合成实验表明,在为给定的兴趣点生成实例建议时,我们的方法会带来巨大的改进。我们进一步验证了我们在挑战性扫描基准测试中的方法,从而在自上而下的方法的子类别中实现了最佳实例分割性能。
translated by 谷歌翻译
现有的无监督方法用于关键点学习的方法在很大程度上取决于以下假设:特定关键点类型(例如肘部,数字,抽象几何形状)仅在图像中出现一次。这极大地限制了它们的适用性,因为在应用未经讨论或评估的方法之前必须隔离每个实例。因此,我们提出了一种新的方法来学习任务无关的,无监督的关键点(Tusk),可以处理多个实例。为了实现这一目标,我们使用单个热图检测,而不是常用的多个热图的常用策略,而是专门针对特定的关键点类型,并通过群集实现了对关键点类型的无监督学习。具体来说,我们通过教导它们从一组稀疏的关键点及其描述符中重建图像来编码语义,并在其中被迫在学术原型中形成特征空间中的不同簇。这使我们的方法适合于更广泛的任务范围,而不是以前的任何无监督关键点方法:我们显示了有关多种现实检测和分类,对象发现和地标检测的实验 - 与艺术状况相同的无监督性能,同时也能够处理多个实例。
translated by 谷歌翻译
为了纠正PET成像中的呼吸运动,构建了一种可解释和无监督的深度学习技术。对网络进行了训练,以预测不同呼吸幅度范围的两个宠物框架之间的光流。训练有素的模型将不同的回顾性宠物图像对齐,提供了最终图像,其计数统计量与非门控图像相似,但没有模糊的效果。 Flownet-PET应用于拟人化数字幻影数据,该数据提供了设计强大指标以量化校正的可能性。当比较预测的光流与地面真相时,发现中值绝对误差小于像素和切片宽度。通过与没有运动的图像进行比较,并计算肿瘤的联合(IOU)以及在应用校正之前和之后NO-MOTION肿瘤体积内的封闭活性和变异系数(COV)进行比较。网络提供的平均相对改进分别为IOU,总活动和COV的64%,89%和75%。 Fownet-Pet获得了与常规回顾相结合方法相似的结果,但仅需要扫描持续时间的六分之一。代码和数据已公开可用(https://github.com/teaghan/flownet_pet)。
translated by 谷歌翻译
对人类的逼真渲染和安息对于实现增强现实体验至关重要。我们提出了一个新颖的框架,以重建人类和场景,可以用新颖的人类姿势和景色从一个单一的野外视频中呈现。给定一个由移动摄像机捕获的视频,我们训练了两个NERF模型:人类NERF模型和一个场景NERF模型。为了训练这些模型,我们依靠现有方法来估计人类和场景的粗糙几何形状。这些粗糙的几何估计值使我们能够创建一个从观察空间到独立姿势独立的空间的翘曲场10秒的视频剪辑,并以新颖的观点以及背景提供新颖的姿势,提供人类的高质量效果。
translated by 谷歌翻译
我们提出了一种新颖的优化框架,其基于用户描述和美学作证给定图像。与现有的图像裁剪方法不同,其中通常会列举深网络以回归裁剪参数或裁剪动作,我们建议通过重新修复在图像标题和美学任务上的预先训练的网络,而无需任何微调,我们建议直接优化裁剪参数。从而避免训练单独的网络。具体而言,我们搜索最大限度地减少这些网络初始目标的组合损失的最佳作物参数。为了使优化表提出三种策略:(i)多级双线性采样,(ii)退火的作物区域的规模,因此有效地减少了多种优化结果的参数空间,(iii)聚合。通过各种定量和定性评估,我们表明我们的框架可以产生与预期用户描述和美学令人愉悦的作物。
translated by 谷歌翻译
我们扩展了神经3D表示,以允许直观和可解释的用户控制超出新颖视图渲染(即相机控制)。我们允许用户注释一个希望在训练图像中只用少量掩模注释来控制的场景的哪个部分。我们的主要思想是将属性视为给定场景编码的神经网络回归的潜在变量。这导致了几次拍摄的学习框架,当未提供注释时,框架会自动发现属性。我们将我们的方法应用于具有不同类型的可控属性的各种场景(例如,人类面上的表达式控制,或在无生命对象的移动中的状态控制)。总体而言,我们据我们所知,我们的知识展示了第一次新颖的视图和新颖的属性从单一视频重新渲染场景。
translated by 谷歌翻译
我们引入分层可控的视频生成,在没有任何监督的情况下,将视频的初始帧分解为前景和背景层,用户可以通过简单地操纵前景掩模来控制视频生成过程。关键挑战是无监督的前景背景分离,这是模糊的,并且能够预测用户操作,可以访问未获得原始视频序列。我们通过提出两阶段学习程序来解决这些挑战。在第一阶段,随着丰富的损失和动态前景大小,我们学习如何将帧分离为前景和背景图层,并在这些图层上调节,如何使用VQ-VAE发生器生成下一帧。在第二阶段,我们通过将(参数化)控制从未来框架拟合(参数化)控制来进行该网络来预测对掩码的编辑。我们展示了该学习的有效性和更粒度的控制机制,同时说明了在两个基准数据集上的最先进的性能。我们提供了一个视频摘要以及HTTPS://gabriel-中的视频结果.Github.io/layered_controllable_video_generation
translated by 谷歌翻译